Search CORE

10 research outputs found

Corrección gramatical para euskera mediante una arquitectura neuronal seq2seq y ejemplos sintéticos

Author: Beloki Leiza Zuhaitz
Ceberio Berger Klara
Corral Ander
Saralegi Urizar Xabier
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/09/2020
Field of study

Sequence-to-sequence neural architectures are the state of the art for addressing the task of correcting grammatical errors. However, large training datasets are required for this task. This paper studies the use of sequence-to-sequence neural models for the correction of grammatical errors in Basque. As there is no training data for this language, we have developed a rule-based method to generate grammatically incorrect sentences from a collection of correct sentences extracted from a corpus of 500,000 news in Basque. We have built different training datasets according to different strategies to combine the synthetic examples. From these datasets different models based on the Transformer architecture have been trained and evaluated according to accuracy, recall and F0.5 score. The results obtained with the best model reach 0.87 of F0.5 score.Las arquitecturas neuronales secuencia a secuencia constituyen el estado del arte para abordar la tarea de corrección de errores gramaticales. Sin embargo, su entrenamiento requiere de grandes conjuntos de datos. Este trabajo estudia el uso de modelos neuronales secuencia a secuencia para la corrección de errores gramaticales en euskera. Al no existir datos de entrenamiento para este idioma, hemos desarrollado un método basado en reglas para generar de forma sintética oraciones gramaticalmente incorrectas a partir de una colección de oraciones correctas extraídas de un corpus de 500.000 noticias en euskera. Hemos construido diferentes conjuntos de datos de entrenamiento de acuerdo a distintas estrategias para combinar los ejemplos sintéticos. A partir de estos conjuntos de datos hemos entrenado sendos modelos basados en la arquitectura Transformer que hemos evaluado y comparado de acuerdo a las métricas de precisión, cobertura y F0.5. Los resultados obtenidos con el mejor modelo alcanzan un F0.5 de 0.87

Repositorio Institucional de la Universidad de Alicante

Euskarazko anafora pronominala: ikuspuntu konputazionala eta corpus baten garapena

Author: Aduriz Itziar
Ceberio Berger Klara
Díaz de Ilarraza Sánchez Arantza
Publication venue: Servicio Editorial de la Universidad del País Vasco/Euskal Herriko Unibertsitatearen Argitalpen Zerbitzua
Publication date: 01/01/2005
Field of study

Archivo Digital para la Docencia y la Investigación

Euskarazko anafora pronominala: ikuspuntu konputazionala eta corpus baten garapena

Author: Aduriz Itziar
Ceberio Berger Klara
Díaz de Ilarraza Sánchez Arantza
Publication venue: Servicio Editorial de la Universidad del País Vasco/Euskal Herriko Unibertsitatearen Argitalpen Zerbitzua
Publication date: 01/01/2005
Field of study

Archivo Digital para la Docencia y la Investigación

LINGUATEC: Development of linguistic resources to advance the digitisation of the languages of the Pyrenees

Author: Aldabe Arregi Itziar
Aztiria Josu
Beltrán Francho
Bras Myriam
Ceberio Berger Klara
Cortés Etxabe Itziar
Coyos Jean-Baptiste
Dazeas Benaset
Esher Louise
Labaka Intxauspe Gorka
Leturia Azkarate Igor
Sarasola Gabiola Kepa
Sibille Jean
Séguier Aure
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2019
Field of study

El objetivo del proyecto es desarrollar, probar y difundir nuevos recursos, nuevas herramientas y aplicaciones lingüísticas innovadoras para mejorar el nivel de digitalización del aragonés, vasco y occitano. Resultados esperados: (1) Hoja de ruta para la digitalización del aragonés, (2) Nuevos recursos lingüísticos, (3) Herramientas lingüísticas desarrolladas (síntesis de voz occitana, aragonesa y vasca del País Vasco francés, detector de texto occitano y variantes del occitano, mejora de la traducción automática del francés al occitano, del castellano vasco, del castellano al aragonés, (4) Aplicaciones innovadoras desarrolladas en los idiomas de los Pirineos.The goal of the project is to develop, test and disseminate new innovative linguistic resources, tools and solutions for a better digitalization level of the Aragonian, Basque and Occitan languages. As a result, we will obtain, among others, (1) a road map of Aragonian Digitalization, (2) new monolingual and bilingual lexicons and morphosyntactic and syntactic analysers for Occitan, (3) a Northern Basque speech recognition system, and several linguistic tools as well as (4) new innovative solutions for Aragonian, Basque and Occitan.La investigación llevada a cabo en este proyecto se lleva a cabo como parte del proyecto “LINGUATEC: Desarrollo de la cooperación transfronteriza y transferencia de conocimiento en tecnologías de la lengua” (POCTEFA EFA227/16, FEDER), financiado por el Ministerio de Economía y Competitividad y el Fondo Europeo de Desarrollo Regional (FEDER)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Pronominal anaphora in Basque: annotation of a real corpus

Author: Aduriz Agirre Itziar
Ceberio Berger Klara
Díaz de Ilarraza Sánchez Arantza
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2006
Field of study

En este artículo se describe el proceso de etiquetado manual de la anáfora pronominal en el corpus Eus3LB, corpus de 54.000 palabras de texto escrito en euskera etiquetado a nivel sintáctico y que servirá de base para posteriores tratamientos computacionales. Presentamos aquí el estudio lingüístico previo, los criterios de etiquetado establecidos y algunas conclusiones lingüísticas relevantes sobre las características de las relaciones entre la anáfora pronominal y su correspondiente antecedente.This paper describes the process followed in the annotation of pronominal anaphora in the Eus3LB corpus of Basque. Our aim is to use this annotation as the basis for later computational treatment of our language. We present the linguistic analysis carried out, the criteria defined for the tagging and some relevant linguistic conclusions about the features of the antecedents needed to link them correctly to their anaphoric elements

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Erreferentziakidetasun-sareen etiketatze-metodologia EPEC Corpusean tratamendu konputazionalari begira

Author: Aduriz Itziar
Ceberio Berger Klara
Díaz de Ilarraza Sánchez Arantza
García Azkoaga Inés María
Publication venue: Servicio Editorial de la Universidad del País Vasco / Euskal Herriko Unibertsitateko Argitalpen Zerbitzua
Publication date: 01/01/2015
Field of study

Libro-homenaje editado por Mª José Ezeizabarrena y Ricardo Góme

Archivo Digital para la Docencia y la Investigación

Erreferentziakidetasun-sareen etiketatze-metodologia EPEC Corpusean tratamendu konputazionalari begira

Author: Aduriz Itziar
Ceberio Berger Klara
Díaz de Ilarraza Sánchez María Aranzazu
García Azkoaga Inés Mª
Publication venue: Servicio Editorial de la Universidad del País Vasco / Euskal Herriko Unibertsitateko Argitalpen Zerbitzua
Publication date: 01/01/2015
Field of study

Libro-homenaje editado por Mª José Ezeizabarrena y Ricardo Góme

Determinación de características en una aproximación basada en el aprendizaje automático para la resolución de anáforas pronominales en euskara

Author: Arregi Uriarte Olatz
Ceberio Berger Klara
Díaz de Ilarraza Sánchez Arantza
Goenaga Iakes
Sierra Basilio
Zelaia Jauregi Ana Victoria
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2010
Field of study

En este trabajo presentamos una primera aproximación basada en el aprendizaje automático para resolver la anáfora pronominal en euskara. Asimismo, determinamos las características más relevantes para esta tarea.In this paper we present the preliminaries for a machine learning approach to resolve the pronominal anaphora in Basque language. In this work we determine the appropriate features to be used in this task.This work was supported by KNOW2 (TIN2009-14715-C04-01) and Berbatek (IE09-262) projects

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Digital Language Diversity Project Survey Data

Author: Ceberio Berger Klara
Gurrutxaga Hernaiz Antton
Hicks Davyth
Kruse Eleonore
Quochi Valeria
Russo Irene
Salonen Tuomo
Sarhimaa Anneli
Soria Claudia
Publication venue: Istituto di Linguistica Computazionale “A. Zampolli” - Consiglio Nazionale delle Ricerche (ILC-CNR)
Publication date: 04/09/2017
Field of study

This dataset contains the original responses to a questionaire run in 2016 within the DLDP project about the use and usability of 4 European regional and minority languages on digital media and devices: namely Basque, Breton, Karelian and Sardinian (See http://www.dldp.eu/content/survey-digital-fitness). The majority of questions were closed questions where respondents had to tick a box, occasionally multiple choice was allowed. A few questions required free text provision. The questionnaire was designed using 'Google Forms' and was run on the same platform in the summer 2016. The results of the survey are brielfly presented in the DLDP reports available here: http://www.dldp.eu/content/reports-digital-language-diversity-europ

ILC4CLARIN: Linguistic Data and NLP Tool

Determinación de características en una aproximación basada en el aprendizaje automático para la resolución de anáforas pronominales en euskara

Author: Arregi Uriarte Olatz
Ceberio Berger Klara
Díaz de Ilarraza Sánchez Arantza
Goenaga Iakes
Sierra Basilio
Zelaia Jauregi Ana Victoria
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date
Field of study